Principios de Data Mining (página 2)

Enviado por goodlafa

Partes: 1, 2

CAPITULO III

APLICACIONES DE
DATA MINING.

A lo largo de este capítulo veremos algunas de
las aplicaciones de Data Mining dentro de varias
áreas, esta parte esta muy enfocada a aspectos
empresariales debido a que Data Mining es frecuentemente
utilizado en estos rubros, no obstante, hemos procurado incluir
algunas aplicaciones de carácter científico para demostrar
que DM puede ser empleado muy bien en ambos escenarios. En la
sección 3.1, ¿Por qué usar Data
Mining? veremos las razones del por qué es necesario
en ocasiones utilizar una tecnología de este
tipo, en el apartado 3.2 Algunas Herramientas
de Data Mining citaremos algunos ejemplos de las herramientas
software que son
empleadas para el manejo de Data Mining. Hay una
discusión importante acerca de que si Data Mining
es la contraparte de la estadística, si una ayuda a la otra o son
áreas que están peleadas, de esto hablaremos un
poco en la sección 3.3, Data Mining vs.
Estadística. Hemos hecho mención, en los
capítulos anteriores, que Data Mining es un gran
apoyo a la toma de
decisiones dentro del marketing, es
por ello que ahora abordaremos, en el punto 3.4, Mercadeo y
Data Mining, la relación existente entre ambos
procesos.
Durante el apartado 3.5 Ejemplos de utilización de Data
Mining presentamos varios ejemplos, algunos de los cuales ya
se han llevado a la práctica.

3.1. ¿Por qué usar Data
Mining?

Sin duda alguna que el uso de Data Mining:

Contribuye a la toma de decisiones tácticas y
estratégicas proporcionando un sentido automatizado para
identificar información clave desde volúmenes
de datos generados
por procesos tradicionales o elementos software.
Permite a los usuarios dar prioridad a decisiones y
acciones,
por ejemplo, qué segmentos de clientes son
desechables en una
empresa.
Proporciona poderes de decisión a los usuarios
del negocio que mejor entienden el problema y el entorno y es
capaz de medir la acciones y los resultados de la mejor
forma.
Genera Modelos
descriptivos: En un contexto de objetivos
definidos en los negocios
permite a empresas, sin
tener en cuenta la industria o
el tamaño, explorar automáticamente, visualizar y
comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la
cuenta de resultados (tales como el aumento de los ingresos,
incremento de los beneficios, contención de costes y
gestión
de riesgos)
Genera Modelos predictivos: permite que relaciones no
descubiertas e identificadas a través del proceso del
Data Mining sean expresadas como reglas de negocio o
modelos predictivos. Estos outputs pueden comunicarse en
formatos tradicionales (presentaciones, informes,
información electrónica compartida, embebidos en
aplicaciones, etc.) para guiar la estrategia y
planificación de la
empresa.

Si una empresa tiene
menos de 100 mil clientes probablemente le baste con
AccessÓ .
Sorprendentemente, el aprovechamiento de recursos
relativamente simples de ofimática
como ExcelÓ
, AccessÓ
, etc, de los que ya disponemos es muy escaso. Por ejemplo,
pocos saben que se puede realizar un análisis de series temporales con
ExcelÓ ,
sin necesidad de acudir o contratar otras complejas y caras
aplicaciones informáticas. Tal vez sólo necesita
una Intranet, o
tener al menos a su empresa en una red de área
local. Además de una muy simple programación de algunas rutinas con Visual
BasicÓ ,
para dotar a su empresa de un potente Data Mining.
¿El coste? Al menos entre 20 y 50 veces menor que
contratar una solución propietaria con un proyecto llave en
mano de consultoría. Sólo en
compañías de grandes dimensiones o en aquellas en
las que el volumen y
frecuencia de los datos es igual de grande, esté
probablemente justificada una inversión, casi siempre desorbitada, en un
complejo y potente sistema.

Sin embargo, para empresas grandes, la innovación y la originalidad son
habilidades fundamentales para su supervivencia, su éxito y
prosperidad depende también de decisiones eficientes y
competitivas que deben ser tomadas en cortos intervalos de
tiempo. Para
tomar decisiones, es fundamental contar con información de
calidad, lo
cual es proporcionado por Data Mining.[19]

3.2. Algunas herramientas de Data
Mining.

En esta sección presentamos algunos ejemplos de
herramientas software empleadas para trabajar Data
Mining.

Weka: Magnífica suite de minería de
datos de libre distribución.

Weka es una colección de máquinas
virtuales para implementar algoritmos
para tareas de minería de datos. Los algoritmos pueden
aplicarse directamente a un conjunto de datos o pueden utilizarse
desde un programa de
Java. Weka
contiene herramientas para el procesamiento de
datos, clasificación, asociación,
visualización, entre otras. También está
bien preparado para desarrollar esquemas. Weka es un software
abierto emitido por GNU.[5]

MLC++: Conjunto de librerías y utilidades
de minería de datos.

Es una biblioteca de
clases de C++. Proporciona algoritmos que pueden ser usados por
usuarios finales, analistas, profesionales e investigadores. El
objetivo
principal es proporcionarles una variedad ancha de herramientas
que pueden ayudarlos a llevar procesos de minería de
datos, acelerar el desarrollo de
nuevos algoritmos mineros, proporcionar herramientas de
comparación y de despliegue de
información.[4]

Xelopes: Librería con licencia
pública GNU para el desarrollo de aplicaciones de
minería de datos.

Es una librería de plataforma independiente para
utilización de Data Mining. Proporciona algoritmos de
minería de datos muy eficaces que usted puede integrar
transparentemente en sus aplicaciones. Apoya la automatización de selección
de parámetros de los métodos
para que éstos puedan desplegarse totalmente
automáticamente.[8]

Herramientas de
MicrosoftÓ .

MicrosoftÓ ha decidido implementar su API de Data
Mining utilizando OLE DB para el acceso a los datos. Esta API
define un lenguaje
basado en SQL
especialmente desarrollado con el fin de definir que reglas y
patrones que nos gustaría encontrar. Los modelos obtenidos
en este proceso son tratados mediante
tablas SQL especiales. Microsoft
SQL Server
2000Ó
incluye esta tecnología basada en OLE DB, y en dos
algoritmos: MicrosoftÓ Decision Trees y
MicrosoftÓ
Clustering, ambos basados en técnicas
de Inteligencia
Artificial y desarrollados por Microsoft
ResearchÓ
. Microsoft SQL ServerÓ es el sistema gestor de Bases de Datos de
MicrosoftÓ
. Su diseño
se ha realizado pensando en la seguridad,
fiabilidad y escalabilidad, por lo que es ideal para aquellas
empresas que buscan agilidad en el control y
análisis de su información. Entre sus
múltiples funcionalidades se puede destacar la integración servicios
OLAP, directivas de seguridad, optimización de recursos de
sistema, y un completo paquete pensado para el análisis de
los datos.

Por otra parte, las herramientas comerciales de Data
Mining que existen actualmente en el mercado son
variadas y excelentes. Las hay orientadas al estudio del web o al
análisis de documentos o de
clientes de supermercado, mientras que otras son de uso
más general. Su correcta elección depende de la
necesidad de la empresa y de los objetivos a corto y largo plazo
que pretenda alcanzar. La decisión de seleccionar una
solución de Data Mining no es una tarea simple. Es
necesario consultar a expertos en el área con vista a
seleccionar la más adecuada para el problema de la
empresa.

Debemos aclarar que aquí solo estamos presentando
ejemplos de herramientas que están destinadas al uso de
Data Mining, hemos hablado de algunos productos
comerciales y dado la descripción que los mismos
diseñadores de estos productos dan, sin embargo, esto no
quiere decir que nosotros estemos a favor de usar tal o cual
producto, la
decisión depende en su totalidad de la empresa que
pretenda usar alguna herramienta de Data Mining –como se
mencionó en el párrafo
anterior.

3.3. Data Mining vs.
Estadística.[19]

Ahora pretendemos explicar las diferencias de Data
Mining y estadística desde una perspectiva
constructiva en el uso de ambas herramientas analíticas y
bajo un contexto empresarial.

Ambas ciencias
tienen el mismo objetivo: mejorar la toma de decisiones
mediante un conocimiento
del entorno. Este entorno lo facilitan los datos almacenados
en la compañía, cuantitativos o cualitativos y
mediante información de terceras empresas.

Data Mining aventaja a la estadística en
los siguientes supuestos:

Las técnicas estadísticas se centran generalmente en
técnicas confirmatorias, mientras que las
técnicas de Data Mining son generalmente
exploratorias. Así, cuando el problema al que
pretendemos dar respuesta es refutar o confirmar una hipótesis, podremos utilizar ambas
ciencias. Sin embargo, cuando el objetivo es meramente
exploratorio (para concretar un problema o definir cuales son
las variables
más interesantes en un sistema de
información) surge la necesidad de delegar parte del
conocimiento analítico de la empresa en técnicas
de aprendizaje
(inteligencia
artificial), utilizando Data Mining. Aquí hemos
detectado una primera diferencia de aplicación de ambas
herramientas: Data Mining se utilizará cuando no
partamos de supuestos de partida y pretendamos buscar
algún conocimiento nuevo y susceptible de
proporcionar información novedosa en la toma de
decisiones.
A mayor dimensionalidad del problema el Data Mining
ofrece mejores soluciones.
Cuantas más variables entran en el problema, más
difícil resulta encontrar hipótesis de
partida interesantes. O, aun cuando pudiera, el tiempo
necesario no justificará la inversión. En ese
caso, utilizar técnicas de Data Mining como
árboles de decisión que nos
permitirá encontrar relaciones inéditas para
luego concretar la investigación sobre las variables
más interesantes.
Las técnicas de Data Mining son menos
restrictivas que las estadistas. Una vez encontrado un punto de
partida interesante y dispuestos a utilizar algún
análisis estadístico en particular, puede suceder
que los datos no satisfagan los requerimientos del
análisis estadístico. Entonces, las variables
deberán ser examinadas para determinar que tratamiento
permite adecuarlas al análisis, no siendo posible o
conveniente en todos los casos. Aquí también
destaca el Data Mining, puesto que es menos restrictivo que la
estadística y permite ser utilizado con los
mínimos supuesto posibles (permite
‘escuchar’ a los datos).
Cuando los datos de la empresa son muy
dinámicos las técnicas de Data Mining
inciden sobre la inversión y la actualización del
conocimiento de nuestro negocio. Un almacén
de datos poco dinámico permite que una inversión
en un análisis estadístico quede justificada
–personal
cualificado en estadística, metodología rígida y respuestas a
preguntas muy concretas- dado que las conclusiones van a tener
un ciclo de
vida largo. Sin embargo, en un almacén muy
dinámico las técnicas de Data Mining
permiten explorar cambios y determinar cuando una regla de
negocio ha cambiado. Permitiendo abordar diferentes cuestiones
a corto/medio plazo.

Expongamos ahora aquellos contextos en los que es
más adecuado el análisis estadístico que el
de Data Mining:

El objetivo de la investigación es encontrar
causalidad. Si se pretende determinar cuales son las causas de
ciertos efectos (por ejemplo, si invertir más en la
publicidad de
cierto producto tiene como consecuencia un incremento de
ventas o si
es más determinante el ofrecer un descuento a los
clientes), deberemos utilizar técnicas de
estadística. Las relaciones complejas que subyacen a
técnicas de Data Mining impiden una interpretación certera de diagramas
causa-efecto.
Se pretende generalizar sobre poblaciones
desconocidas en su globalidad. Si las conclusiones han de ser
extensibles a otros elementos de poblaciones similares
habrán de utilizarse técnicas de inferencia
estadística. Esto viene relacionado con situaciones
en las que se dispone exclusivamente de muestras (con el
consiguiente problema de aportar validez a las muestras). En
Data Mining, se generarán modelos y luego habrán
de validarse con otros casos conocidos de la población, utilizando como
significación el ajuste de la predicción sobre
una población conocida (es lo habitual cuando queremos
predecir perfiles de clientes, que ya disponemos de
antecedentes para poder
validarlo, aunque no siempre es posible acceder a dicha
información o no siempre es correcto aplicar ciertas
muestras).

Se ha detallado algunos argumentos acerca de cuando es
conveniente utilizar Data Mining o estadística.
Llegado a este punto deseamos destacar que ambas perspectivas
constituyen una sinergia y que
no son excluyentes una de la otra. En este sentido, la
metodología de un proyecto de Data Mining ha de
contener referencias a la estadística en dos partes
destacables del proceso:

Preparación de los datos (tratamiento de
valores
erróneos, valores omitidos, etc.) y aproximación
a las variables de estudio.
Despliegue del proyecto y posible generación
de hipótesis a refutar con una metodología y
técnica estadística.

Así pues, Data Mining y estadística
son técnicas complementarias que permiten obtener
conocimiento inédito en nuestros almacenes de
datos o dar respuestas a cuestiones concretas de
negocio.

3.4. Mercadeo y Data
Mining.[19]

Hay un avance sorprendente en el manejo
electrónico de datos. Cada día, millones de
personas llegan a sus empleos presenciales o en línea y
durante horas digitan en sus computadoras,
billones de bytes que registran las transacciones comerciales que
reflejan el pulso de las economías del mundo. Hace tan
solo unos años, los datos de las empresas estaban
orientados principalmente a alimentar sus sistemas
contables, financieros, de inventarios, de
producción, de recursos
humanos y de ventas. En la medida que los negocios mundiales
se hicieron más competitivos y complejos, los datos cada
vez cobraron más vida y se convirtieron en
información vital para la toma de decisiones de los
gerentes. Las revoluciones científica, económica,
política y
tecnológica, sumadas a la revisión de los conceptos
de soberanía de las naciones, han vuelto los
mercados
impredecibles. La sociedad de
masas creada por la revolución
industrial se ha fragmentado en miles de pedazos. El consumidor
empieza a tener rostro y la diversidad prevaleciente en el
mercado le ha cambiado el rostro al mercadeo.

Entender al nuevo consumidor es una tarea cada vez
más compleja, pues la antigua noción de desarrollar
un producto e inducir su compra a un cliente potencial
desprevenido mediante el uso de la publicidad masiva ya
murió. Para cada producto o servicio hay
numerosas opciones de mercados posibles. Seleccionar el mercado y
luego segmentarlo es una tarea titánica. Ya no se puede
decir como antes que los mejores clientes potenciales son las
mujeres entre los dieciocho y los cuarenta y nueve años,
la gente de la generación X o la gente que se parece a
nuestros consumidores actuales. Tras la aparente similitud existe
toda una heterogeneidad derivada de las diferencias en educación,
ocupación, ingresos, etnias, culturas, estilos de vida,
percepciones, necesidades y deseos.

Si trabajamos en un conglomerado bancario, una
compañía de gas domiciliario
a gran escala, un
proveedor globalizado de servicios de telecomunicación,
una compañía de seguros a nivel
mundial líder
en sus mercados, etc., entonces almacenamos grandes cantidades de
información y queremos agregarles valor, por lo
tanto estaremos interesados en automatizar el proceso de
información y descubrir información valiosa que de
otra forma seguirá siendo subutilizada o simplemente
desperdiciada. Empecemos pues a cavar y a construir un
túnel en su escenario de mercadeo, para ello es de gran
utilidad el
proceso de Data Mining

Hacer mercadeo con base de datos
con Data Mining puede requerir de una alta
inversión económica y además la
integración de tres componentes fundamentales:

La información almacenada actualmente, mucha
de ella proveniente de sus sistemas de
información que interactúan con el
cliente.
Técnicas estadísticas o instrumentos
que usen modelos predictivos.
Equipos sofisticados de
presentación.

Una aplicación, por ejemplo, es implementar un
proceso que genere una muy precisa segmentación de los clientes. Una vez que
el motor del Data
Mining ha seleccionado un grupo adecuado
de segmentos de clientes de su bodega de datos (Data
Warehouse), el próximo paso será extrapolar los
perfiles de los consumidores. Cada vez que llega una nueva
cosecha de clientes se aplica un nuevo conjunto de modelos
estadísticos y se corre el programa para comparar contra
los segmentos existentes o crear otros nuevos. Aquí
estamos enfocando la atención a predecir la lealtad de marca, para citar
un ejemplo, pero tenemos muchas otras aplicaciones como
son:

Segmentación del mercado.
Tendencias de deserción de
clientes.
Descubrimiento de transacciones
fraudulentas.
Mercadeo directo.
Mercadeo Interactivo.
Análisis de canasta.
Análisis de tendencias.
Perfiles de clientes.
Focalización de clientes y campañas
promocionales.

El mercadeo mediante Data Mining, convierte una
plataforma tecnológica en un sistema de información
sobre el que se construyen soluciones de negocios. Naturalmente
el punto de partida es que las montañas de datos deben ser
de oro y no de
chatarra. De lo contrario no vale la pena excavar. Se
necesitarán equipos de computo, sistemas
operativos y la infraestructura necesaria para apoyar ese
proyecto minero. Luego vendrán las técnicas de
inteligencia artificial y de análisis estadístico
que permitirán extraer el oro de su mina. El primer paso
es evaluar los recursos, objetivos y necesidades.

3.4.1. Data Mining y los procesos de venta.

El Data Mining integra los procesos modernos de
ventas en los cuales se pueden aplicar algunas técnicas
que señalamos a continuación:

El Cross Selling: Esta técnica se
basa en el mercadeo concéntrico, esto es, en
múltiples ofertas alrededor de un mismo cliente. A mayor
cantidad de transacciones o relaciones que sostenga una cuenta
con nosotros, mayor será la capacidad de la empresa de
retenerla con el paso del tiempo. Esto requiere de la
segmentación de la clientela para adaptar la oferta a las
necesidades del cliente o grupo de éstos y de la
existencia de alguna matriz que
identifique cuáles Productos se le han colocado a
cuáles clientes (y cuáles no) para facilitar
eventuales ofertas.

El Networking: Cada cliente puede ser una
fuente de negocios adicionales, pero existen siempre evidentes
"multiplicadores" que por su naturaleza o
poder de convocatoria aglutinan números importantes de
clientes potenciales. Esta técnica busca crear redes de cuentas
potenciales alrededor de una sola matriz internamente, en nuestra
clientela existen normalmente varias de éstas y en el
mercado tantas más. Por ejemplo: Pueden ser nuestros
clientes los empleados de ellos, sus propios clientes, sus
proveedores,
afiliados, etc.

Otras aplicaciones en este sentido del Data
Mining pueden ser:

Para Comunicarnos con nuestra base de clientes y
prospectos de manera directa y masiva (cumpleaños,
lanzamientos, cobros) .
Para contribuir en la conservación de clientes
existentes.
Para vender otros productos a nuestra base de
clientes y elevar ingresos.
Para capturar nuevos clientes con Televisión o Web-Marketing.

Por ejemplo, Data Mining podría arrojar
resultados a una empresa como:

"La mayoría de los que compraron un
determinado tipo de tabla de surf posiblemente veraneen
este año en Nueva Zelanda".
"El 76% de las veces que un cliente llevó
gaseosa también compró detergente
biodegradable".
"Tanto los desodorantes de hombre como
los de mujer, se
venden mejor juntos que separados, entre las 17:00 y las 19:00
del fin de semana, en las sucursales de la zona
sur".

Es muy poco probable que a alguna persona de
marketing se le hubiera ocurrido comparar datos sobre la venta de
estos productos, y éste es sólo un ejemplo de la
enorme variedad de relaciones que el Data Mining es capaz
de encontrar. Cuando el programa encuentra correlaciones
interesantes, los traduce en gráficos simples, permitiéndoles a
los gerentes tomar decisiones más racionales, y no
sólo basadas en la intuición. No obstante, el
Data Mining ayuda a confirmar un presentimiento o a
desmentir una creencia: en un ejercicio netamente colaborativo,
el ser humano sugiere las ideas (hipótesis) y la
máquina las confirma o las rechaza según la
evidencia aportada por los datos.

El Data Mining se utiliza tanto en los negocios
como en la ciencia.
Desde la comprensión del comportamiento
de los clientes hasta el análisis de las decisiones de
expertos, desde la predicción de los posibles cambios en
el mercado hasta el descubrimiento de patrones en el cuidado de
la salud, desde la
detección de fraudes en tarjetas de
crédito
hasta el descubrimiento de galaxias, desde la mejora de las
promociones de ventas hasta la síntesis
de drogas, el
Data Mining tiene una enorme gama de
aplicaciones.

3.5. Ejemplos de Utilización de Data
Mining.

Cada año, en los diferentes congresos, simposios
y talleres que se realizan en el mundo se reúnen
investigadores con aplicaciones muy diversas sobre Data
Mining. Sobre todo en los Estados Unidos,
el Data Mining se ha ido incorporando a la vida de
empresas, gobiernos, universidades, hospitales y diversas
organizaciones
que están interesadas en explorar sus bases de datos.
Podemos decir que "en Data Mining cada caso es un caso". A
continuación se describen varios ejemplos donde se ha
visto involucrado el Data Mining.

3.5.1.Pañales y cervezas: Un caso famoso
acerca del comportamiento de los consumidores.

Una situación muy popular sucedió en una
cadena de víveres en los Estados Unidos. Utilizando un
software de minería de datos para estudiar el
comportamiento de sus clientes, encontraron relaciones
interesantes entre pañales, cervezas, hombres, y
día de la semana.

Encontraron que los días jueves y sábado,
los hombres que compraban pañales también compraban
cerveza.
Información como esa, que no siempre es evidente a primera
vista, puede ser utilizada para reubicar la mercancía en
lugares más estratégicos, en este ejemplo,
manteniendo a los pañales y a las cervezas cercanos unos
de otros.

Este resultado suministrado por un proceso de
minería de datos, puede ser analizado en profundidad por
expertos humanos. Si ellos encuentran una explicación
razonable, esta de seguro
será de mucho ayuda para que los ejecutivos de la empresa
alcancen sus objetivos de una manera más
eficiente.

3.5.2. Data Mining para Pymes.

WebMining LtdaÓ desarrolla estudios y modelos para
pequeñas y medianas empresas (Pymes) utilizando
técnicas de Data Mining y Web Mining (Vea el
capítulo V). Se obtiene conocimiento sobre algún
negocio utilizando técnicas de clustering, redes
neuronales y árboles de
decisión.[12]

Entre las variadas aplicaciones de Data Mining que se
desarrollan, destacan:

Segmentación de Clientes:
Segmentación de clientes utilizando técnicas de
agrupamiento difuso.
Clasificación: Clasificación de
clientes utilizando técnicas de redes neuronales. Por
ejemplo, para aplicaciones de adquisición de nuevos
clientes o detección de fuga.
Modelos Predictivos: Desarrollo de modelos
predictivos utilizando árboles de decisión o
redes neuronales. Estos modelos permiten realizan una
predicción sobre la base de una serie de
decisiones.
Inducción de reglas: Que permiten
entender el comportamiento de compra de los clientes o realizar
predicciones basadas en un cierto objetivo.
Rediseño de sitios Web:
Reorganización de la estructura
de links o contenido de las páginas.
Soporte a decisiones de Marketing o de
Negocios: Determinación de conductas o rasgos de los
clientes que realizan ciertas acciones, tales como comprar
productos.
Personalización: Adaptación de
las vistas de página de acuerdo a la información
obtenida de cada usuario. Esto puede incluir precios
dinámicos para cada usuario o promociones que aumenten
las ventas.
Estudios de utilidad: Determinación de
la calidad de la interfaz de usuario.
Seguridad: Detección de accesos
inusuales a datos privados.
Análisis de tráfico de redes:
Determinación de los requerimientos de equipo y la
distribución de datos con el fin de manejar
eficientemente el tráfico de un sitio.

3.5.3. Data Mining en SAS.

La Compañía Software And Services
(SAS)Ó ,
líder en inteligencia de negocios (Business
Intelligence o BI), continúa siendo reconocida como
referente en el área de Data Mining. SAS, el quinto mayor
fabricante de software empresarial del mundo, lidera la nueva
generación de software y servicios de que permiten la
creación de una verdadera inteligencia empresarial. Las
soluciones de SAS están implementadas en más de
40.000 instalaciones, permitiendo la optimización de las
relaciones con sus clientes y proveedores y ayudando a tomar las
mejores decisiones. SAS es el único proveedor que integra
completamente aplicaciones Data Warehousing, aplicaciones
analíticas y las tradicionales aplicaciones de BI para
crear inteligencia a partir de las cada vez mayores cantidades de
datos disponibles en una organización.

Giga, filial propiedad de
Forrester Research, INC., ha publicado recientemente, un informe,
Vendor Scorecard: Selecting Software for Predictive
Analytics, en el que analiza el software de SAS y de otros
tres proveedores. Para la realización del informe, se
tuvieron en cuenta distintos factores como la estrategia, las
propiedades de los productos, la usabilidad, los precios, las
opciones de contratación y la viabilidad y mantenimiento.
SAS obtuvo muy buenos resultados con su premiado producto
SAS® Enterprise Miner™, que es la oferta más
completa de Data Mining en el mercado.

Dentro del área de la estrategia del proveedor,
el informe establece que los potenciales compradores de productos
de software para análisis predictivo deberían
apostar por SAS por su seria y comprometida dedicación al
análisis de datos. El informe pone de manifiesto que
SAS® Enterprise Miner™ tiene el más completo
portafolio de algoritmos para la modelización predictiva.
Adicionalmente, apunta que la interoperabilidad de los metadatos
con otras soluciones best-of-breed de SAS para ETL
(extracción, transformación y carga),
reporting y aplicaciones verticales, proporciona la
compañía claras ventajas sobre sus
competidores.

"Este informe muestra
claramente el fuerte compromiso de SAS con el mercado del
software de minería de datos", ha dicho Anne Milley,
Directora de Estrategia de Inteligencia Analítica de SAS.
"SAS suministra soluciones de software analítico que
permiten a las compañías identificar
fácilmente tendencias y relaciones que son determinantes –
ayudándoles a adoptar decisiones de negocio
críticas con seguridad. Por ello, consideramos que estamos
en una buena posición para ayudar a nuestros clientes a
encarar la necesidad creciente de realizar análisis
avanzados, que son los que producen los mayores
beneficios".

SAS® muestra pautas y tendencias, explica resultados
conocidos e identifica factores que permiten asegurar efectos
deseados. Con esta solución, las compañías
pueden incrementar sus ingresos, reducir los costes y mejorar su
competitividad. SAS Text Miner, producto
añadido a SAS® Enterprise MinerTM, amplia sus
capacidades de minería de datos proporcionando un juego de
soluciones para poner al descubierto y extraer el
conocimiento de una amplia variedad de documentos de texto,
incluyendo e-mails, informes de venta y anotaciones realizadas
por el personal de los call center. Integrar
información basada en textos con datos estructurados
enriquece las capacidades de modelización predictiva y
proporciona nuevos almacenes de
información valiosa para conducir el negocio e investigar
potenciales iniciativas.

SAS posee la solución más completa del
mercado para sostener el proceso completo de creación de
inteligencia dentro de todas las áreas de negocio – desde
el área de resultados corporativos, pasando por el de
Recursos Humanos, Financiero, el de Ventas o el de Marketing.
Esta infraestructura de inteligencia empresarial integral,
conocida como SAS Intelligence Architecture, otorga al
mercado la agilidad que necesita para adaptarse a los cambios que
se producen en el mismo. Construyendo sobre inversiones
existentes en tecnologías de información, SAS
Intelligence Architecture permite a las
compañías seguir respondiendo a las necesidades del
mercado, de sus empleados, sus proveedores y de otros
protagonistas del entorno.[2]

3.5.4. Spoke: Data Mining de tu correo
electrónico.

Spoke es un programa de Data Mining para una
agenda de correo (hasta ahí es fácil, los otros
programas de
redes de contacto también lo hacen), y también
(aquí está la novedad) de todo tu correo. Cuando te
das de alta extrae toda la información almacenada en
OutlookÓ
, Lotus NotesÓ o lo que estemos usando (incluidas
cuentas de webmail). Detecta a quién hemos mandado
correos, de quien los hemos recibido, con qué frecuencia,
incluso quien estaba copiado en mensajes que te han enviado a ti.
Con todo eso monta una base de datos salvaje de todos tus
contactos directos e indirectos. Además, aplica un
complejo algoritmo para
clasificar la intensidad de la relación teniendo en cuenta
muchos factores (cuántos datos de esa persona tienes en tu
agenda: si tienes su empresa y puesto, si tienes su teléfono o dirección postal, cuántos correos
has intercambiado, hace cuanto, etc. Todo esto lo presenta en una
agenda, pero también en un buen mapa de contactos muy
fácil de usar. Puedes seleccionar un contacto y ver a
quién más conoce o quién te ha hablado de
él (copiándolo en un correo dirigido a ti). Todo
esto son funcionalidades en modo aislado.

Cuando conocemos otra gente que también lo tenga
instalado, las posibilidades se multiplican. Podemos buscar
personas que queramos contactar, o empresas, y te indican
cuáles de tus contactos los conocen directa o
indirectamente.

Tiene todavía algunos fallos. No importa bien los
caracteres acentuados y hay que hacer bastante limpieza y
consolidación si se desea tener una base de datos
realmente operativa; demasiada gente tiene varias direcciones de
e-mail.[3]

3.5.5. Data Mining y la medicina
basada en la evidencia.

Con el advenimiento de los modernos sistemas
tecnológicos de informática médica, los
profesionales de la salud han podido tener acceso a un mundo
insospechado de información actualizada y de forma veloz.
La búsqueda bibliográfica por internet, merced a las
bondades de Medline y otras librerías, permitió que
el médico dedicara su tiempo en menesteres profesionales
mientras la informática le conseguía la preciada
documentación. Pero con el tiempo,
surgió el problema del control de
calidad y seriedad científica de la información
en medicina, con lo cual la Medicina Basada en la
Evidencia (MBE) apareció como el paladín de los
que, con el pasar de los años, veíamos con grandes
dudas escrito sobre especialidades médicas. A la primera
visión surgió un auto-cuestionamiento de paranoia
larvada, pero el análisis minucioso de la situación
permitió detectar infinidad de procedimientos
erróneamente elegidos, resultados criticables, seguridad
epidemiológica ausente, y fue entonces cuando la MBE se
consagró como la única forma de saber si las
conductas estratégicas de los profesionales de la salud
eran sensatas o arrastraban las costumbres sin fundamentos a
través de los tiempos.

La MBE se puede sentir alimentada en el futuro por la
información codificada y almacenada en un Data
Warehouse de la Salud. Es escalofriante pensar en la recolección
de datos codificados en las consultas médicas del
mundo entero, donde cada enfermedad puede tener síntomas
hasta ahora no sospechados, por la sencilla razón de que
hasta ahora a nadie se le ocurrió atar los cabos sueltos
de la información dispersa.

La revolución
de la MBE puede encontrar aquí una fuente no sólo
de inspiración, sino de confirmación o rechazo de
viejas teorías
que se perpetúan sin bases científicas ni
estadísticas de valor. Un trabajo
colaborativo multicéntrico mundial con protocolos de
recolección de datos uniforme, permitiría obtener
información de singular valor como para permitir afirmar
que la enfermedad XXX se presenta con el síntoma YYY en el
x% de los casos.

Solamente hay que querer sacar provecho de la
información disponible. A la información existente
en salud, el mundo le queda chico. Con el Data Mining de
la base de datos de síntomas clínicos, la MBE puede
llegar a decirnos que lo que creíamos que era de una
forma, en realidad es de otra forma. Las raíces de la
medicina clásica pueden llegar a temblar a la luz del "nuevo
conocimiento" bajo el paraguas de la MBE, y dentro del Data
Warehouse de la salud.[16]

3.5.6. Aplicación del FBI para detectar
terroristas.

El FBI analizará las bases de datos comerciales
para detectar terroristas. A principios del
mes de julio de 2002, el director del Federal Bureau of
Investigation (FBI), John Aschcroft, anunció que el
Departamento de Justicia
comenzará a introducirse en la vasta cantidad de datos
comerciales referentes a los hábitos y preferencias de
compra de los consumidores, con el fin de descubrir potenciales
terroristas antes de que ejecuten una acción.
Algunos expertos aseguran que, con esta información, el
FBI unirá todas las bases de datos probablemente mediante
el número de la Seguridad
Social y permitirá saber si una persona fuma,
qué talla y tipo de ropa usa, su registro de
arrestos, su salario, las
revistas a las que está suscrito, su altura y peso, sus
contribuciones a la Iglesia,
grupos
políticos u organizaciones no gubernamentales, sus
enfermedades
crónicas (como diabetes o
asma), los
libros que
lee, los productos de supermercado que compra, si tomó
clases de vuelo o si tiene cuentas de banco abiertas,
entre otros. La inversión inicial ronda los setenta
millones de dólares estadounidenses para consolidar los
almacenes de datos, desarrollar redes de seguridad para compartir
información e implementar nuevo software analítico
y de visualización.

En otras palabras, el FBI pretende vigilar a ciertos
clientes de comercios alrededor de todo el mundo para detectar,
por medio de Data Mining, cuáles de ellos tienen el
perfil de terroristas y así tomar medidas de
seguridad.[14]

3.5.7. Detección de fraudes en las tarjetas de
crédito.

En 2001, las instituciones
financieras a escala mundial perdieron más de 2000
millones de dólares estadounidenses en fraudes con
tarjetas de crédito y débito. El Falcon Fraud
Manager es un sistema inteligente que examina transacciones,
propietarios de tarjetas y datos financieros para detectar y
mitigar fraudes. En un principio estaba pensado, en instituciones
financieras de Norteamérica, para detectar fraudes en
tarjetas de crédito. Sin embargo, actualmente se le han
incorporado funcionalidades de análisis en las tarjetas
comerciales, de combustibles y de débito. El sistema
Falcon ha permitido ahorrar más de seiscientos
millones de dólares estadounidenses cada año y
protege aproximadamente más de cuatrocientos cincuenta
millones de pagos con tarjeta en todo el mundo
–aproximadamente el sesenta y cinco por ciento de todas las
transacciones con tarjeta de crédito.[14]

3.5.8. Descubriendo el por qué de la
deserción de clientes de una compañía
operadora de telefonía móvil.

Este estudio fue desarrollado en una operadora
española que básicamente situó sus objetivos
en dos puntos: el análisis del perfil de los clientes que
se dan de baja y la predicción del comportamiento de sus
nuevos clientes. Se analizaron los diferentes históricos
de clientes que habían abandonado la operadora (12,6%) y
de clientes que continuaban con su servicio (87,4%).
También se analizaron las variables personales de cada
cliente (estado civil,
edad, sexo, nacionalidad,
etc.). De igual forma se estudiaron, para cada cliente, la
morosidad, la frecuencia y el horario de uso del servicio, los
descuentos y el porcentaje de llamadas locales,
interprovinciales, internacionales y gratuitas. Al contrario de
lo que se podría pensar, los clientes que abandonaban la
operadora generaban ganancias para la empresa; sin embargo, una
de las conclusiones más importantes radicó en el
hecho de que los clientes que se daban de baja recibían
pocas promociones y registraban un mayor número de
incidencias respecto a la media. De esta forma se
recomendó a la operadora hacer un estudio sobre sus
ofertas y analizar profundamente las incidencias recibidas por
esos clientes. Al descubrir el perfil que presentaban, la
operadora tuvo que diseñar un trato más
personalizado para sus clientes actuales con esas
características. Para poder predecir el comportamiento de
sus nuevos clientes se diseñó un sistema de
predicción basado en la cantidad de datos que se
podía obtener de los nuevos clientes comparados con el
comportamiento de clientes anteriores.[14]

3.5.9. Prediciendo el tamaño de las audiencias
televisivas.

La British Broadcasting Corporation (BBC) del Reino
Unido emplea un sistema para predecir el tamaño de las
audiencias televisivas para un programa propuesto, así
como el tiempo óptimo de exhibición. El sistema
utiliza redes neuronales y árboles de decisión
aplicados a datos históricos de la cadena para determinar
los criterios que participan según el programa que hay que
presentar. La versión final se desempeña tan bien
como un experto humano con la ventaja de que se adapta más
fácilmente a los cambios porque es constantemente
re-entrenada con datos actuales.

3.5.10. Aplicación en la universidad.

Se pretende conocer si los recién titulados de
una universidad llevan a cabo actividades profesionales
relacionadas con sus estudios. Se hizo un estudio sobre los
recién titulados de la carrera de Ingeniería en Sistemas Computacionales del
Instituto Tecnológico de Chihuahua, en México. Se
quería observar si sus recién titulados se
insertaban en actividades profesionales relacionadas con sus
estudios y, en caso negativo, se buscaba saber el perfil que
caracterizó a los ex-alumnos durante su estancia en la
universidad. El objetivo era saber si con los planes de estudio
de la universidad y el aprovechamiento del alumno se hacía
una buena inserción laboral o si
existían otras variables que participaban en el proceso.
Dentro de la información considerada estaba el sexo, la
edad, la escuela de
procedencia, el desempeño académico, la zona
económica donde tenía su vivienda y la actividad
profesional, entre otras variables. Se descubrió que
existían cuatro variables que determinaban la adecuada
inserción laboral, que son citadas de acuerdo con su
importancia: zona económica donde habitaba el estudiante,
colegio de donde provenía, nota al ingresar y promedio
final al salir de la carrera. A partir de estos resultados, la
universidad tendrá que hacer un estudio
socioeconómico sobre grupos de alumnos que
pertenecían a las clases económicas bajas para dar
posibles soluciones, debido a que tres de las cuatro variables no
dependían de la universidad.[14]

3.5.11.
Investigaciones espaciales: Proyecto
SKYCAT.

Durante seis años, el Second Palomar Observatory
Sky Survey (POSS-II) coleccionó tres terabytes de imágenes
que contenían aproximadamente dos millones de objetos en
el cielo. Tres mil fotografías fueron digitalizadas a una
resolución de 16 bits por píxel con 23040 x 23040
píxeles por imagen. El
objetivo era formar un catálogo de todos esos objetos. El
sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa
en técnicas de agrupación (clustering) y
árboles de decisión para poder clasificar los
objetos en estrellas, planetas,
sistemas, galaxias, etc. con una alta confiabilidad. Los
resultados han ayudado a los astrónomos a descubrir
dieciséis nuevos quásars (señales
radiales lejanas) con corrimiento hacia el rojo que los incluye
entre los objetos más lejanos del universo y, por
consiguiente, más antiguos. Estos quásars son
difíciles de encontrar y permiten saber más acerca
de los orígenes del universo.[14]

3.5.12. En clubes deportivos.

El AC de Milán utiliza un sistema inteligente
para prevenir lesiones. El club comenzará a usar redes
neuronales para prevenir lesiones y optimizar el
acondicionamiento de cada atleta. Esto ayudará a
seleccionar el fichaje de un posible jugador o a alertar al
médico del equipo de una posible lesión. El
sistema, creado por Computer Associates International, es
alimentado por datos de cada jugador, relacionados con su
rendimiento, alimentación y
respuesta a estímulos externos, que se obtienen y analizan
cada quince días. El jugador lleva a cabo determinadas
actividades que son monitoreadas por veinticuatro sensores
conectados al cuerpo y que transmiten señales de radio que
posteriormente son almacenadas en una base de datos. Actualmente
el sistema dispone de 5000 casos registrados que permiten
predecir alguna posible lesión. Con ello, el club intenta
ahorrar dinero
evitando comprar jugadores que presenten una alta probabilidad de
lesión, lo que haría incluso renegociar su contrato. Por
otra parte, el sistema pretende encontrar las diferencias entre
las lesiones de atletas de ambos sexos, así como saber si
una determinada lesión se relaciona con el estilo de juego
de un país concreto donde
se practica el fútbol.

Los equipos de la NBA también utilizan
aplicaciones inteligentes para apoyar a su cuerpo de
entrenadores. El Advanced Scout es un software que emplea
técnicas de Data Mining y que han desarrollado
investigadores de IBM para detectar patrones estadísticos
y eventos raros.
Tiene una interfaz gráfica muy amigable orientada a un
objetivo muy específico: analizar el juego de los equipos
de la National Basketball
Association (NBA).El software utiliza todos los registros
guardados de cada evento en cada juego: pases, encestes, rebotes
y doble marcaje (double team) a un jugador por el equipo
contrario, entre otros. El objetivo es ayudar a los entrenadores
a aislar eventos que no detectan cuando observan el juego en vivo
o en película. Un resultado interesante fue uno hasta
entonces no observado por los entrenadores de los Knicks de Nueva
York. El doble marcaje a un jugador puede generalmente dar la
oportunidad a otro jugador de encestar más
fácilmente. Sin embargo, cuando los Bulls de Chicago
jugaban contra los Knicks, se encontró que el porcentaje
de encestes después de que al centro de los Knicks,
Patrick Ewing, le hicieran doble marcaje era extremadamente bajo,
indicando que los Knicks no reaccionaban correctamente a los
dobles marcajes. Para saber el porqué, el cuerpo de
entrenadores estudió cuidadosamente todas las
películas de juegos contra
Chicago. Observaron que los jugadores de Chicago rompían
su doble marcaje muy rápido de tal forma que podían
tapar al encestador libre de los Knicks antes de prepararse para
efectuar su tiro. Con este conocimiento, los entrenadores crearon
estrategias
alternativas para tratar con el doble marcaje. La temporada
pasada, IBM ofreció el Advanced Scout a la NBA, que se
convirtió así en un patrocinador corporativo. La
NBA dio a sus veintinueve equipos la oportunidad de aplicarlo.
Dieciocho equipos lo están haciendo hasta el momento
obteniendo descubrimientos interesantes.[14]

CAPITULO IV

EXTENSIONES DE
DATA MINING.[14]

En este capítulo veremos dos extensiones de
Data Mining en una forma muy vaga, los hemos
incluido ya que creímos importantes las contribuciones de
estos procesos, en la sección 4.1 hablamos del Web
Mining y finalmente en el apartado 4.2 hacemos mención
del Text Mining, veremos de forma general su
descripción y como es que pueden ser utilizados, lo cual
incluye algunos ejemplos muy simples.

4.1. Web Mining.

Una de las extensiones del Data Mining consiste en
aplicar sus técnicas a documentos y servicios del Web, lo
que se llama Web Mining (minería de web). Todos los
que visitan un sitio en internet dejan huellas digitales
(direcciones de IP, navegador,
galletas, etc.) que los servidores
automáticamente almacenan en una bitácora de
accesos (logs). Las herramientas de Web Mining analizan y
procesan estos logs para producir información
significativa, por ejemplo, cómo es la navegación
de un cliente antes de hacer una compra en línea. Debido a
que los contenidos de Internet consisten en varios tipos de datos,
como texto, imagen, vídeo, metadatos o hiperligas,
investigaciones recientes usan el término Multimedia
Data Mining (minería de datos multimedia) como
una instancia del Web Mining para tratar ese tipo de
datos. Los accesos totales por dominio, horarios
de accesos más frecuentes y visitas por día, entre
otros datos, son registrados por herramientas estadísticas
que complementan todo el proceso de análisis del Web
Mining. Normalmente, el Web Mining puede clasificarse
en tres dominios de extracción de conocimiento de acuerdo
con la naturaleza de los datos:

Web Content Mining (minería de
contenido web). Es el proceso que consiste en la
extracción de conocimiento del contenido de documentos o
sus descripciones. La localización de patrones en el
texto de los documentos, el descubrimiento del recurso basado
en conceptos de indexación o la tecnología basada
en agentes también pueden formar parte de esta
categoría.
Web Structure Mining (minería de
estructura web). Es el proceso de inferir conocimiento de
la
organización del WWW y la estructura de sus
ligas.
Web Usage Mining (minería de uso
web). Es el proceso de extracción de modelos
interesantes usando los logs de los accesos al web.

Algunos de los resultados que pueden obtenerse tras la
aplicación de los diferentes métodos de Web
Mining son:

El ochenta y cinco por ciento de los clientes que
acceden a /productos/home.html y a
/productos/noticias.html acceden también a
/productos/historias_suceso.html. Esto podría indicar
que existe alguna noticia interesante de la empresa que hace
que los clientes se dirijan a historias de suceso. Igualmente,
este resultado permitiría detectar la noticia
sobresaliente y colocarla quizá en la página
principal de la empresa.
Los clientes que hacen una compra en línea
cada semana en /compra/producto1.html tienden a ser de sectores
del gobierno. Esto
podría resultar en proponer diversas ofertas a este
sector para potenciar más sus compras.
El sesenta por ciento de los clientes que hicieron
una compra en línea en /compra/producto1.html
también compraron en /compra/producto4.html
después de un mes. Esto indica que se podría
recomendar en la página del producto 1 comprar el
producto 4 y ahorrarse el costo de
envío de este producto.

Los anteriores ejemplos nos ayudan a formarnos una
pequeña idea de lo que podemos obtener. Sin embargo, en la
realidad existen herramientas de mercado muy poderosas con
métodos variados y visualizaciones gráficas excelentes.

4.2. Text Mining.

Con billones de páginas en la red, se requieren de
nuevas
tecnologías para encontrar, clasificar y detectar
particulares patrones en la información disponible. La
esencia de los métodos de la minería de datos
aplicados a los datos numéricos, puede también ser
aplicada a datos de texto.

Estudios recientes indican que el ochenta por ciento de
la información de una compañía está
almacenada en forma de documentos. Sin duda, este campo de
estudio es muy vasto, por lo que técnicas como la
categorización de texto, el procesamiento de lenguaje
natural, la extracción y recuperación de la
información o el aprendizaje
automático, entre otras, apoyan al Text Mining
(minería de texto). En ocasiones se confunde el Text
Mining con la recuperación de la información
(Information Retrieval o IR). Ésta última
consiste en la recuperación automática de
documentos relevantes mediante indexaciones de textos,
clasificación, categorización, etc. Generalmente se
utilizan palabras clave para encontrar una página
relevante. En cambio, el
Text Mining se refiere a examinar una colección de
documentos y descubrir información no contenida en
ningún documento individual de la colección; en
otras palabras, trata de obtener información sin haber
partido de algo. Una aplicación muy popular del Text
Mining es: Don Swanson intenta extraer información
derivada de colecciones de texto. Teniendo en cuenta que los
expertos sólo pueden leer una pequeña parte de lo
que se publica en su campo, por lo general no se dan cuenta de
los nuevos desarrollos que se suceden en otros campos.
Así, Swanson ha demostrado cómo cadenas de
implicaciones causales dentro de la literatura médica
pueden conducir a hipótesis para enfermedades poco
frecuentes, algunas de las cuales han recibido pruebas de
soporte experimental. Investigando las causas de la
migraña, dicho investigador extrajo varias piezas de
evidencia a partir de títulos de artículos
presentes en la literatura biomédica. Algunas de esas
claves fueron:

El estrés
está asociado con la migraña.
El estrés puede conducir a la pérdida
de magnesio.
Los bloqueadores de canales de calcio previenen
algunas migrañas.
El magnesio es un bloqueador natural del canal de
calcio.
La depresión cortical diseminada (DCD)
está implicada en algunas migrañas.
Los niveles altos de magnesio inhiben la
DCD.
Los pacientes con migraña tienen una alta
agregación plaquetaria.
El magnesio puede suprimir la agregación
plaquetaria.

Estas claves sugieren que la deficiencia de magnesio
podría representar un papel en algunos tipos de
migraña, una hipótesis que no existía en la
literatura y que Swanson encontró mediante esas ligas. De
acuerdo con Swanson, estudios posteriores han probado
experimentalmente esta hipótesis obtenida por Text
Mining con buenos resultados.

CAPITULO V

CONCLUSIONES Y
PERSPECTIVAS.

Hemos llegado al final de este documento y es turno de
dar algunos puntos de vista sobre todo lo que hemos estado
hablando a lo largo de este trabajo y ver qué es lo que
viene después de Data Mining, comenzando con la
sección 5.1, Competencia y Oportunidades en la cual
diremos cuáles son las oportunidades que hay actualmente
sobre el uso de Data Mining, si es provechoso o no, La
próxima generación, sección 5.2, nos
habla del futuro de Data Mining y finalmente en el punto
5.3 daremos, como autores de este trabajo, algunos Comentarios
Finales.

5.1. Competencia y
Oportunidades.

Saber hacer buen uso de los datos de una empresa, puede
ser la clave del éxito, en estos tiempos inciertos,
altamente competitivos. Si no se dispone de un Director de
Sistemas en una compañía esta no se debe dejar
abrumar por la amplia oferta y además tiene que pensar
siempre, antes de decidir, el beneficio de su
inversión.

Si hubiera que hacer una recomendación
prioritaria en todo lo relativo a las tecnologías de
información en la empresa, esta es sin duda que no se debe
dejar impresionar por el argot. Se mezclan conceptos generalmente
admitidos en el mundo de la gestión
empresarial, con términos y procesos de consultoras,
junto a productos de proveedores especializados y marcas
comerciales.

Con tantos ingredientes y tan heterogéneos, no es
de extrañar que se piense que esto es únicamente
cosa de expertos. Pero ni es oro todo lo que reluce, ni todas las
propuestas son buenas o necesarias para los intereses de una
empresa. Lo que sí se puede descubrir, es que hacer un uso
práctico y eficiente de los datos de los clientes,
proveedores, productos, o empleados, con poco más que las
herramientas y recursos de los que ya dispone, es
posible.

Hay una gran amplia competencia en el mundo empresarial,
es por eso que estas requieren transformar los datos con los que
cuentan a proyectos, ideas,
etc, para obtener los objetivos que ellas mismas se plantean, y
emprender campañas de marketing que en verdad los
beneficien, y no solo a las compañías, sino que
esto se traduzca en un servicio al
cliente de calidad.

Es obvio que a un analista le tomaría varias
vidas, por ejemplo, el examinar detalladamente y desde una
perspectiva multidimensional las millones de transacciones
diarias de una gran cadena de supermercados para encontrar
patrones, regularidades o interrelaciones importantes. (No nos
olvidemos que la mayoría de los humanos somos mejores
detectando anomalías que infiriendo regularidades o
relaciones en grandes conjuntos de
datos.) Pero lo tiene que hacer. Afortunadamente, cuenta con
modernas herramientas para extraer las tendencias tanto pasadas
como futuras.

Sin embargo, es importante resaltar que no se realizan
grandes hallazgos todos los días. Es necesario utilizar
intensivamente las herramientas de Data Mining para
descubrir información valiosa, que por cierto es muy
escasa. Por eso el conjunto Data Mining-Data Warehouse,
que es computacionalmente intensivo, puede beneficiarse con un
hardware
más poderoso. Incluso las computadoras paralelas aceleran
el proceso de búsqueda ofreciendo la posibilidad de
realizar múltiples preguntas
simultáneas.[15]

Las oportunidades dentro de Data Mining bien
pueden ser muchas, o todo lo contrario, lo más importante
es saber hacer un uso adecuado de herramientas Data Mining
así como de otras auxiliares, a saber, Data
Warehouse, si se sabe emplear bien este tipo de
tecnologías se tendrán una infinidad de
oportunidades a nivel empresarial e incluso en otras
áreas, no tiene caso contar con alta tecnología si
esta es mal empleada, por ello podemos decir que, hay que saber
tomar decisiones para que estas nos ayuden a tomar otras
decisiones que serán más importantes y
dejarán más beneficios a una cierta
compañía. Así mismo, hay que explorar
más a fondo todos los recursos con los que contamos
actualmente para ver cuales son asequibles y utilizarlos tal vez
en conjunto para sacar mayores ganancias.

5.2. La próxima
generación.

En muchas áreas del saber, el conocimiento se ha
venido obteniendo por el clásico método
hipotético-deductivo, a partir de un conjunto de
observaciones y de unos conocimientos previos, la
intuición y la experiencia del investigador le conduce a
formular las hipótesis. Sin embargo, esta intuición
resulta casi imposible de llevar a cabo cuando, en vez de
observaciones aisladas y casuales, se analizan millones de datos
de grandes bases de datos. Es evidente que el proceso de
complejidad creciente experimentado por la humanidad en los
últimos tiempos supera a la mente de cualquier ser humano,
escapa plenamente a su control. El considerable crecimiento de la
información llega a obnubilar la mente, produce stress,
sobrecarga la memoria,
crea deficiencias en la atención y genera estados de
inmovilidad. No obstante, las computadoras pueden manejar
volúmenes de información infinitamente superiores a
los que la mente humana puede dominar, considerando un
número inhumanamente grande de variables
simultáneas y haciéndolo más
rápidamente de lo que jamás ningún ser
humano podrá realizar; y esto se irá acrecentando
en los próximos años, hemos visto como por algunas
pocas décadas las computadoras han evolucionado a algo que
hace 50 o 60 años era impensable por muchos.

Actualmente, el mejor uso del Data Mining es
aquel en donde el analista formula las consultas
específicas a fin de que el sistema convalide o desmienta
las hipótesis según los datos. Sin embargo, la
tecnología continuará automatizando cada vez
más el proceso de decisión en sí mismo,
haciendo que las futuras herramientas de descubrimiento detecten
las relaciones y generen esencialmente las
hipótesis.

Como último objetivo todavía lejano se
intenta crear un sistema de descubrimiento de conocimiento de
propósito general que, a medida que se vuelva más
complejo, agregue sus propios aportes. A través del
análisis cuidadoso, del examen meticuloso y de la
asociación de datos sin una conexión obvia,
podría ser capaz -por ejemplo- de descubrir nuevos
tratamientos para enfermedades u originales ideas para explicar
el origen del
universo. Con respecto a este concepto, el
futurólogo A. Toffler hace notar que la computadora
puede sugerir soluciones imaginativas para ciertos problemas al
descubrir relaciones nuevas o que hasta entonces habían
pasado inadvertidas. Se podría pedir a la computadora
que "piense lo impensable", que piense en lo que aun jamás
ha sido pensado.

En poco tiempo más, el Data Mining puede
volverse tan común y fácil usar como el e-mail.
Podremos utilizar estas herramientas de forma masiva para
analizar datos a gran escala y encontrar, por ejemplo, la mejor
tarifa aérea a Cancún, conseguir el número
telefónico de un antiguo compañero de clase, o
encontrar los precios más económicos de las
bordadoras de césped. El software se dará cuenta
dónde buscar, cómo evaluar lo que encuentra y
cuándo dejar de buscar. Nuestros ayudantes cognitivos
pueden volverse tan indispensables como lo es ahora el
teléfono. [15]

La pregunta que ahora nos hacemos es ¿Las
computadoras ahora pensarán por nosotros?, una posible
respuesta es que, nosotros debemos hacer que ellas piensen, o
mejor dicho, descubran lo que notros queremos que descubran, que
sirvan para lo que nosotros queremos que sirvan, el uso de
tecnologías como Data Mining conlleva muchas
facilidades hacia la vida de los seres humanos, las computadoras
se han hecho para facilitar nuestra vida cotidiana no para
complicarla y Data Mining representa una de estas
facilidades, la cual por supuesto evolucionará.

5.3. Comentarios Finales.

Hemos visto, a lo largo de este trabajo, qué es
un Data Warehouse,
Data Mining, y cuáles son sus principales
aplicaciones, entre otras cosas. Contamos, en la actualidad con
herramientas muy poderosas que se están introduciendo cada
vez más en el mundo empresarial y científico, no
obstante, queda mucho camino por recorrer, hablamos de
tecnología, de oportunidades, de cómo ha
evolucionado dicha tecnología y lo que esperamos de ella,
sin embargo, su campo de aplicación sigue siendo un tanto
reducido en países de los llamados tercer mundistas y en
algunas otras áreas diferentes a las
empresariales.

Data Mining como un proceso de descubrimiento de
información tiene demasiadas ventajas que sus defectos
casi no los podemos ver, con esto queremos decir que no todo en
esta vida es del todo bueno, Data Mining y otras
tecnologías nos están llevando a una mayor
facilidad en la vida de los humanos como lo acotamos en la
sección anterior, pero, lamentablemente, estas facilidades
todavía no llegan a todos lados y no se utilizan en todas
sus formas, como vimos se utilizan demasiado en áreas
empresariales, generando riqueza a los que ya son ricos, la
cuestión aquí es que cómo vamos a emplear
tales herramientas para obtener un beneficio mucho más
grande aún, esto es, usar las tecnologías para
contrarrestar todos los efectos negativos que hemos provocado
como seres humanos.

Es momento de responder a ciertos cuestionamientos como,
si Data Mining es tan eficaz generando oportunidades
empresariales ¿cómo lo podemos utilizar, por
ejemplo, para combate a la pobreza, al
desempleo, a
mejorar la calidad de
vida de los seres humanos, a la educación?, a
pesar de que mencionamos ejemplos sobre el uso de Data
Mining en el contexto universitario y médico
aún no hay nada tan relevante dentro de esas áreas
y que brinden una verdadera ayuda en aspectos muy diferentes a
los empresariales, a los cuales Data Mining esta
todavía muy centrado, esta fue una de las razones por las
cuales este trabajo lo enfocamos mucho al nivel empresarial y no
específicamente a otros, basta con buscar en internet
información sobre Data Mining y veremos como la gran
mayoría de los resultados obtenidos se enfocan a mercadeo.
Data Mining bien puede encontrar otros caminos por los
cuales abrirse paso y no solo unos cuantos para unos
cuantos.

Tal vez suene un tanto burdo pero ahora a Data
Mining lo debemos usar para descubrir al mismo Data
Mining ("Descubrir Data Mining usando Data
Miing"), esto es, saber en qué más podemos
ocuparlo, conocer que otras áreas de aplicación
podemos encontrar y sacarles provecho al
máximo.

Este trabajo tratamos de elaborarlo de la mejor manera
posible, a pesar de ello, sabemos que bien puede tener algunos
defectos, pero esperamos que sea de utilidad para nosotros mismos
en posteriores ocasiones y que nos deje la más grata
experiencia.

REFERENCIAS*.

[1]. (2002) Data Mining and Knowledge Discovery.
An International Journal.

[2]. (2004) SAS supera a sus competidores en la
categoría de Data Mining. http://www.sas.com/index.html

[3]. (2004) Spoke: Data Mining de tu correo
electrónico.

http://www.merodeando.com/blog/archivos/2004/01/31-spoke-data-mining-de-tu-correo-electronico.php

[4]. (2005) MLC++. http://www.sgi.com/tech/mlc/

[5]. (2005) Weka 3: Data Mining Software in
Java. http://www.cs.waikato.ac.nz/ml/weka/

[6]. (2005) Wikipedia, la enciclopedia libre. Data
Mining. http://es.wikipedia.org/wiki/Data_mining

[7]. (2005) Wikipedia, la enciclopedia libre. Data
Warehouse. http://es.wikipedia.org/wiki/Data_warehouse

[8]. (2005) XELOPES Library – Product
Info. http://www.prudsys.com/Produkte/Algorithmen/Xelopes/

[9]. Berberena González, Viterbo H. (2004) La
Minería de Datos en la Construcción de Modelos de Soporte para la
Toma de Decisiones Estratégicas.
http://www.bettermanagement.com/seminars/seminar.aspx?l=9486#PresenterBio#PresenterBio

[10]. Casares, Claudio. (2005) Data
Warehousing.
http://programacion.com/Inicio/tutoriales/teoria/teoriadebasesdedatos/datawarehousing

[11]. Gondar Nores, José Emilio. (2004)
Creación de un Proyecto de Data Mining:
Fases. www.estadistico.com

[12]. Guerrero, Jaime. (2004) ERP al alcance
de las PyMes.
http://www.gestiopolis.com/recursos/documentos/fulldocs/ger1/erppymes.htm#fig1

[13]. Martínez Pelayo, Oliver Eduardo. (2004)
Factores clave de éxito: sistemas y tecnologías
de información; ventajas y problemáticas en la
industria. www.gda.itesm.mx/lcpf

[14]. Molina Félix, Luis Carlos. (2002) Data
Mining: torturando a los datos hasta que confiesen.
http://www.lsi.upc.es/~lcmolina/

[15]. Moriello, Sergio A. (2004) Data Mining:
Oráculos de silicio, Buceando en un mar de
información. http://www.redcientifica.com/autores/smoriello.html

[16]. Porta, Carlos Alberto. (2004) Data mining y la
medicina basada en la evidencia. http://merodeando.com/mt/mt-tb.cgi/2534

[17]. Royo, José A. (2003) Data Warehouse and
Data Mining. http://www.cps.unizar.es/~jaroyo

[18]. Soriano Ulloa, Marco Antonio. (2004) Nuevas
Tendencias de Bases de Datos. Benemérita Universidad
Autónoma de Puebla, Facultad de Ciencias de la Computación.

[19]. Urdaneta, Elymir. (1997) El Data
Mining. www.monografias.com

[20].Valcárcel Asencios, Violeta. (2004) Data
Mining y el descubrimiento del conocimiento. www.unmsm.edu.pe

*Todos los artículos de internet que aquí
se presentan fueron consultados el día 8 de Junio de
2005.

Luis Antonio Fernández
Aldana

Estudiante del Sexto. Cuatrimestre de Ingeniería
en Ciencias de la Computación.

Benemérita Universidad Autónoma de
Puebla.

Facultad de Ciencias de la
Computación.

27 / Junio / 2005.

Comentarios a:

Partes: 1, 2

Página anterior

Volver al principio del trabajo

Página siguiente